统计学中的位置与离散程度度量(含编码)
众数(Mode):数据中出现频率最高的数值或组别
中位数(Median):数据排序后位于中间位置的数值
均值(Mean):算术平均值,公式 \(\bar{x} = \frac{\sum x}{n}\)
频率表均值:\(\bar{x} = \frac{\sum fx}{\sum f}\)
下四分位数(\(Q_1\)):数据第25%位置的数值
上四分位数(\(Q_3\)):数据第75%位置的数值
极差(Range):最大值与最小值的差
四分位距(IQR):\(Q_3 - Q_1\)
百分位距:两个给定百分位数的差值
方差:\(\sigma^2 = \frac{\sum x^2}{n} - \left( \frac{\sum x}{n} \right)^2\)
频率表方差:\(\sigma^2 = \frac{\sum fx^2}{\sum f} - \left( \frac{\sum fx}{\sum f} \right)^2\)
标准差:\(\sigma = \sqrt{\sigma^2}\)
编码公式:\(y = \frac{x - a}{b}\)
均值变换:\(\bar{x} = b\bar{y} + a\)
标准差变换:\(\sigma_x = b\sigma_y\)
两组数据合并:\(\bar{x} = \frac{n_1\bar{x}_1 + n_2\bar{x}_2}{n_1 + n_2}\)
8名学生的测试成绩为:7, 5, 8, 6, 9, 5, 7, 5
求:众数、中位数和均值
答题区域:
学生读书数量的频率表如下:
| 读书数量 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|
| 频率 | 5 | 8 | 12 | 7 | 3 |
计算学生读书的平均数量
答题区域:
12名学生的身高(cm)数据:158, 162, 165, 155, 170, 160, 163, 159, 168, 156, 164, 161
求:\( Q_1 \)、\( Q_2 \) 和 \( Q_3 \)
答题区域:
学生作业时间分组数据(分钟):
| 时间(分钟) | 20-30 | 30-40 | 40-50 | 50-60 |
|---|---|---|---|---|
| 频率 | 6 | 10 | 14 | 5 |
估计70th百分位数
答题区域:
数据集:12, 15, 18, 20, 22, 25, 30
计算极差和四分位距(IQR)
答题区域:
数据:4, 6, 8, 10, 12
计算方差和标准差
答题区域:
猫咪体重(kg)频率表:
| 体重(kg) | 2.0-2.5 | 2.5-3.0 | 3.0-3.5 | 3.5-4.0 |
|---|---|---|---|---|
| 频率 | 4 | 8 | 5 | 3 |
估计体重的标准差
答题区域:
笔记本电脑价格($)数据:850, 920, 780, 1050, 980
使用编码 \( y = \frac{x - 800}{50} \) 求:
a) 编码后数据
b) 编码后数据的均值
c) 原始数据的均值
d) 编码后和原始数据的标准差
答题区域:
使用编码 \( y = \frac{x - 50}{10} \) 的编码后均值为2.4
求原始数据的真实均值
答题区域:
使用编码 \( y = x - 30 \) 的编码后标准差为4.2
求原始数据 \( x \) 的标准差
答题区域:
解答过程:
• 数据排序:5, 5, 5, 6, 7, 7, 8, 9
• 众数:5(出现3次,频率最高)
• 中位数:第4、5位数据的平均值 = \(\frac{6+7}{2} = 6.5\)
• 均值:\(\bar{x} = \frac{7+5+8+6+9+5+7+5}{8} = \frac{52}{8} = 6.5\)
解答过程:
• 加权和:\(\sum fx = 2×5 + 3×8 + 4×12 + 5×7 + 6×3 = 10 + 24 + 48 + 35 + 18 = 135\)
• 总频率:\(\sum f = 5 + 8 + 12 + 7 + 3 = 35\)
• 均值:\(\bar{x} = \frac{\sum fx}{\sum f} = \frac{135}{35} = 3.857 \approx 3.86\)
解答过程:
• 数据排序:155, 156, 158, 159, 160, 161, 162, 163, 164, 165, 168, 170
• \( n = 12 \)
• \( Q_1 \) 位置:\(\frac{12}{4} = 3\),取第3、4位平均值:\(\frac{158+159}{2} = 158.5\)
• \( Q_2 \) 位置:\(\frac{12}{2} = 6\),取第6、7位平均值:\(\frac{161+162}{2} = 162.5\)
• \( Q_3 \) 位置:\(\frac{3×12}{4} = 9\),取第9、10位平均值:\(\frac{164+165}{2} = 164.5\)
解答过程:
• 总频率:\( n = 6 + 10 + 14 + 5 = 35 \)
• 70th百分位数位置:\(\frac{70×35}{100} = 24.5\)
• 累计频率:6, 16, 30, 35
• 位置24.5落在40-50组(累计频率16-30)
• 插值计算:\( P_{70} = 40 + \frac{24.5-16}{14} × 10 = 40 + 6.07 = 46.07 \)
解答过程:
• 数据已排序:12, 15, 18, 20, 22, 25, 30
• 极差:\( 30 - 12 = 18 \)
• \( n = 7 \)
• \( Q_1 \) 位置:\(\frac{7}{4} = 1.75\),向上取整第2位:\( Q_1 = 15 \)
• \( Q_3 \) 位置:\(\frac{3×7}{4} = 5.25\),向上取整第6位:\( Q_3 = 25 \)
• 四分位距:\( IQR = Q_3 - Q_1 = 25 - 15 = 10 \)
解答过程:
• 数据:4, 6, 8, 10, 12
• 求和:\(\sum x = 4 + 6 + 8 + 10 + 12 = 40\)
• 平方和:\(\sum x^2 = 16 + 36 + 64 + 100 + 144 = 360\)
• 均值:\(\bar{x} = \frac{40}{5} = 8\)
• 方差:\(\sigma^2 = \frac{360}{5} - 8^2 = 72 - 64 = 8\)
• 标准差:\(\sigma = \sqrt{8} = 2\sqrt{2} \approx 2.83\)
解答过程:
• 组中值:2.25, 2.75, 3.25, 3.75
• 加权和:\(\sum fx = 2.25×4 + 2.75×8 + 3.25×5 + 3.75×3 = 9 + 22 + 16.25 + 11.25 = 58.5\)
• 加权平方和:\(\sum fx^2 = 2.25^2×4 + 2.75^2×8 + 3.25^2×5 + 3.75^2×3 = 20.25 + 60.5 + 52.81 + 42.19 = 175.75\)
• 总频率:\(\sum f = 4 + 8 + 5 + 3 = 20\)
• 均值:\(\bar{x} = \frac{58.5}{20} = 2.925\)
• 方差:\(\sigma^2 = \frac{175.75}{20} - (2.925)^2 = 8.7875 - 8.556 = 0.2315\)
• 标准差:\(\sigma = \sqrt{0.2315} \approx 0.48\) kg
解答过程:
a) 编码后数据:
\( y_1 = \frac{850-800}{50} = 1 \),\( y_2 = \frac{920-800}{50} = 2.4 \)
\( y_3 = \frac{780-800}{50} = -0.4 \),\( y_4 = \frac{1050-800}{50} = 5 \)
\( y_5 = \frac{980-800}{50} = 3.6 \)
编码后数据:1, 2.4, -0.4, 5, 3.6
b) 编码后均值:
\(\bar{y} = \frac{1 + 2.4 + (-0.4) + 5 + 3.6}{5} = \frac{11.6}{5} = 2.32\)
c) 原始数据均值:
\(\bar{x} = b\bar{y} + a = 50 × 2.32 + 800 = 116 + 800 = 916\)
d) 标准差:
编码后平方和:\(\sum y^2 = 1^2 + 2.4^2 + (-0.4)^2 + 5^2 + 3.6^2 = 1 + 5.76 + 0.16 + 25 + 12.96 = 44.88\)
编码后方差:\(\sigma_y^2 = \frac{44.88}{5} - (2.32)^2 = 8.976 - 5.382 = 3.594\)
编码后标准差:\(\sigma_y = \sqrt{3.594} \approx 1.90\)
原始标准差:\(\sigma_x = b\sigma_y = 50 × 1.90 = 95\)
解答过程:
• 编码公式:\( y = \frac{x - 50}{10} \)
• 编码参数:\( a = 50 \),\( b = 10 \)
• 编码后均值:\(\bar{y} = 2.4\)
• 原始均值:\(\bar{x} = b\bar{y} + a = 10 × 2.4 + 50 = 24 + 50 = 74\)
解答过程:
• 编码公式:\( y = x - 30 \)
• 编码参数:\( a = 30 \),\( b = 1 \)
• 编码后标准差:\(\sigma_y = 4.2\)
• 原始标准差:\(\sigma_x = b\sigma_y = 1 × 4.2 = 4.2\)
注意:加减常数不影响标准差,所以原始标准差等于编码后标准差。